The black-box nature of end-to-end speech translation (E2E ST) systems makes it difficult to understand how source language inputs are being mapped to the target language. To solve this problem, we would like to simultaneously generate automatic speech recognition (ASR) and ST predictions such that each source language word is explicitly mapped to a target language word. A major challenge arises from the fact that translation is a non-monotonic sequence transduction task due to word ordering differences between languages -- this clashes with the monotonic nature of ASR. Therefore, we propose to generate ST tokens out-of-order while remembering how to re-order them later. We achieve this by predicting a sequence of tuples consisting of a source word, the corresponding target words, and post-editing operations dictating the correct insertion points for the target word. We examine two variants of such operation sequences which enable generation of monotonic transcriptions and non-monotonic translations from the same speech input simultaneously. We apply our approach to offline and real-time streaming models, demonstrating that we can provide explainable translations without sacrificing quality or latency. In fact, the delayed re-ordering ability of our approach improves performance during streaming. As an added benefit, our method performs ASR and ST simultaneously, making it faster than using two separate systems to perform these tasks.
translated by 谷歌翻译
Image Super-Resolution (SR) is essential for a wide range of computer vision and image processing tasks. Investigating infrared (IR) image (or thermal images) super-resolution is a continuing concern within the development of deep learning. This survey aims to provide a comprehensive perspective of IR image super-resolution, including its applications, hardware imaging system dilemmas, and taxonomy of image processing methodologies. In addition, the datasets and evaluation metrics in IR image super-resolution tasks are also discussed. Furthermore, the deficiencies in current technologies and possible promising directions for the community to explore are highlighted. To cope with the rapid development in this field, we intend to regularly update the relevant excellent work at \url{https://github.com/yongsongH/Infrared_Image_SR_Survey
translated by 谷歌翻译
场景文本图像综合技术旨在自然构成背景场景上的文本实例,非常吸引训练深神经网络,因为它们可以提供准确而全面的注释信息。先前的研究探索了基于实际观察结果的规则,在二维和三维表面上生成了合成文本图像。其中一些研究提出了从学习中生成场景文本图像。但是,由于缺乏合适的培训数据集,已经探索了无监督的框架,以从现有的现实世界数据中学习,这可能不会导致强大的性能。为了缓解这一难题并促进基于学习的场景文本综合研究,我们建议使用公共基准准备的真实世界数据集,并具有三种注释:四边形级别的bbox,streoke-level文本掩码和文本屏蔽词图片。使用Depompst数据集,我们提出了一个图像合成引擎,其中包括文本位置建议网络(TLPNET)和文本外观适应网络(TAANET)。 TLPNET首先预测适合文本嵌入的区域。然后,taanet根据背景的上下文自适应地改变文本实例的几何形状和颜色。我们的全面实验验证了提出的方法为场景文本检测器生成预浏览数据的有效性。
translated by 谷歌翻译
水果和蔬菜的检测,分割和跟踪是精确农业的三个基本任务,实现了机器人的收获和产量估计。但是,现代算法是饥饿的数据,并非总是有可能收集足够的数据来运用最佳性能的监督方法。由于数据收集是一项昂贵且繁琐的任务,因此在农业中使用计算机视觉的能力通常是小企业无法实现的。在此背景下的先前工作之后,我们提出了一种初始弱监督的解决方案,以减少在精确农业应用程序中获得最新检测和细分所需的数据,在这里,我们在这里改进该系统并探索跟踪果实的问题果园。我们介绍了拉齐奥南部(意大利)葡萄的葡萄园案例,因为葡萄由于遮挡,颜色和一般照明条件而难以分割。当有一些可以用作源数据的初始标记数据(例如,葡萄酒葡萄数据)时,我们会考虑这种情况,但与目标数据有很大不同(例如表格葡萄数据)。为了改善目标数据的检测和分割,我们建议使用弱边界框标签训练分割算法,而对于跟踪,我们从运动算法中利用3D结构来生成来自已标记样品的新标签。最后,将两个系统组合成完整的半监督方法。与SOTA监督解决方案的比较表明,我们的方法如何能够训练以很少的标记图像和非常简单的标签来实现高性能的新型号。
translated by 谷歌翻译
在本文中,我们提出了一项医疗措施,以赋予超级分辨率生成对抗网络(AID-SRGAN),以实现二线图像超分辨率。首先,我们提出了一种医学实践降解模型,该模型考虑了除了减少采样以外的各种退化因素。据我们所知,这是针对射线照相图像提出的第一个复合降解模型。此外,我们提出了AID-SRGAN,它可以同时降低并产生高分辨率(HR)X光片。在此模型中,我们将注意力机制引入了Denoising模块中,以使其对复杂的降解更加健壮。最后,SR模块使用“清洁”低分辨率(LR)X光片重建HR X光片。此外,我们提出了一种单独的接头训练方法来训练模型,并进行了广泛的实验,以表明所提出的方法优于其对应物。例如,我们提出的方法可实现$ 31.90 $的PSNR,比例为$ 4 \ times $,比最近的工作SPSR [16]高7.05美元\%$ $ $。我们的数据集和代码将在以下网址提供:https://github.com/yongsongh/aidsrgan-miccai2022。
translated by 谷歌翻译
场景文本擦除,它在自然图像中替换了具有合理内容的文本区域,近年来在计算机视觉社区中造成了重大关注。场景文本删除中有两个潜在的子任务:文本检测和图像修复。两个子任务都需要相当多的数据来实现更好的性能;但是,缺乏大型现实世界场景文本删除数据集不允许现有方法实现其潜力。为了弥补缺乏成对的真实世界数据,我们在额外的增强后大大使用了合成文本,随后仅在改进的合成文本引擎生成的数据集上培训了我们的模型。我们所提出的网络包含一个笔划掩模预测模块和背景染色模块,可以从裁剪文本图像中提取文本笔划作为相对较小的孔,以维持更多的背景内容以获得更好的修复结果。该模型可以用边界框部分删除场景图像中的文本实例,或者使用现有场景文本检测器进行自动场景文本擦除。 SCUT-SYN,ICDAR2013和SCUT-ENSTEXT数据集的定性和定量评估的实验结果表明,即使在现实世界数据上培训,我们的方法也显着优于现有的最先进的方法。
translated by 谷歌翻译